整合基因组学和蛋白质结构的致病机制分析
作者:毛勇
在单基因疾病研究中,对致病突变的发现和论证是最核心的工作。一般而言,大部分的文章仅仅局限于“样本-测序-信息分析-致病突变发现”之模式。相对于这种以样本和测序为核心的工作,“样本-测序-信息分析-致病突变发现-整合公共数据库挖掘突变和表型关系”的模式则在一定程度上可以增加文章的广度和深度。本文以The Deciphering Developmental Disorders (DDD) study
发表的三篇文章为例,来论述整合群体变异位点和蛋白结构分析来增加对致病变异特征的理解这一分析思路。
整合群体变异和蛋白结构分析来提高对WD40结构域上的错义突变致病性解释[1]:
结果简介:
1)作者在6个DDD 患者的TBL1XR1
基因上发现了6个de novo mutation,其中5个错义突变,一个1bp的移码插入突变,经过生信分析(如人群频率、危害性预测、保守性分析等)判断这些突变为疑似致病突变;
2)随后,作者在ExAC、dbSNP
等数据库发现了64个群体变异位点,因为这些位点的人群频率相对较高,因此认为这些变异为中性变异位点。进一步,将突变映射到TBL1XR1编码的蛋白结构上,发现6个de novo mutations和33个population missense variants均位于WD40
结构域上;
3)对WD40结构域进行解读发现该结构域为TBL1XR1的重要功能域;
4)对新发现的几个突变进行具体分析,包括保守性分析、蛋白结构上的氢键分析(H-bonds),表明突变位于保守性区域(图1);且点突变会对氢键互作造成影响(图2);
5)突变位置分析:以WD40结构域的β-折叠为轴线从top到bottom 面(即文中的z-轴),表明致病相关的氨基酸呈现聚集现象,富集于top binding face,与中性变异呈现出明显的不同,差异分析也表明二者有显著差异(P = 9E-5)(图3)。一些基于危害性预测的结果也表明二者有类似的显著差异关系。
图1:新发突变的序列物种保守性分析,A)为PROSITE sequence logo图,B)为多序列比对图 R包ggseqlogo 绘制seq logo图 Seq logo 在线绘制工具——Weblogo
图2:突变的局部氢键网络图分析 来一场蛋白和小分子的风花雪月
图3:TBLR1的WD40结构域所有突变的Z-轴位置(以4lg9.pdb为例来计算);A)x轴表示氨基酸序号,y轴表示在氨基酸Z-axis上的分布位置,其中有害突变为红色,中性为绿色,其余为蓝色;B)不同种类的氨基酸在蛋白结构上的分布;C)z-轴位置的箱线图分布(注:Z-axis表示在PDB文件中每个氨基酸骨架的carbonyl carbon三维坐标的z 值,z值相近的氨基酸在空间上也更近)
对发育类疾病患者DYRK1A基因致病突变蛋白结构分析[2]
对4293 个DDD study 的trios 家系分析发现19个 de novo mutations,其中14个为蛋白disrupting突变(包括 six frameshift, two splice-site, five stop-gained and a 20kb intragenic inversion),由于突变的位置在C端之前,因此会造成无功能的蛋白产物,剩余的5个为错义突变,位于kinase domain
上。作者对5个错义突变的局部氢键同样做了细致的分析(图4)。类似的,作者也从公共数据库中发现中性突变,将两类突变映射到蛋白三维结构上,发现致病突变和中性突变的位置分布有显著差异,即致病突变相对于中性突变在ATP、肽或者ATP+肽三方面的距离都不同且结果都具有显著性(P=0.001,0.01和0.008)(图5)。
图4,5个错义突变在DYRK1A的kinase domain 上的分布和局部氢键图
图5,DYRK1A上的致病和中性突变分析,A)中性和致病突变在结构域上的位置分布图和频率图,B)3D蛋白结构分布图,C)DYRK1A上突变位点和ATP、肽或者ATP+肽的最近距离的箱线图
STXBP1致病突变和群体变异蛋白结构和表型分析研究[3]
该研究同样来源于DDD study发现STXBP1基因上的de novo mutation,然后将将错义突变和ExAC中的群体变异位点映射到蛋白结构上,发现二者在溶剂可及表面积、序列保守性、互作氨基酸的个数以及蛋白质稳定性变化等方面均存在差异(图6)
图6,致病变异和中性变异的比较 R语言学习 - 箱线图(小提琴图、抖动图、区域散点图)
总结
这三篇由同一机构发表,采用的思路是比较相近的。因此,基于一定数量的样本,发现可疑的致病变异,再通过数据库整合已报道的致病变异,中性变异,结合具体的生物学功能在蛋白三维结构上对两类变异的差异进行分析,挖掘一些规律,不失为一种比较好的研究思路。
参考文献:
Laskowski R A, Tyagi N, Johnson D, et al. Integrating population variation and protein structural analysis to improve clinical interpretation of missense variation: application to the WD40 domain[J]. Human molecular genetics, 2016, 25(5): 927-935.
Evers J M G, Laskowski R A, Bertolli M, et al. Structural analysis of pathogenic mutations in the DYRK1A gene in patients with developmental disorders[J]. Human molecular genetics, 2017, 26(3): 519-526.
Suri M, Evers J M G, Laskowski R A, et al. Protein structure and phenotypic analysis of pathogenic and population missense variants in STXBP 1[J]. Molecular genetics & genomic medicine, 2017, 5(5): 495-507.
系列教程
易生信系列培训课程,扫码获取免费资料
更多阅读
后台回复“生信宝典福利第一波”或点击阅读原文获取教程合集